查看原文
其他

专访智谱AI张鹏:顶天立地,中国大模型的决战时刻|深网独家

叶蓁 深网腾讯新闻
2024-09-06


作者丨叶蓁  编辑丨康晓

出品丨深网·腾讯新闻小满工作室


欢迎下载腾讯新闻APP,阅读更多优质资讯



2023年下半年,在参加多场国内大模型行业研讨会后,智谱AI CEO张鹏强烈意识到:中国创业者不应该给自己贴一个只擅长“1到100”的标签,然后限制我们去想“0到1”的突破可能。


“能不能把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步?”


张鹏的问题,源自中国大模型产品和ChatGPT在认知上的差距。


“用个不太好的词,得其形未得其神。虽然双方某些层面也是一致的,比如不约而同的把多模态作为最新模型的关键特征,但多模态为什么重要,大家不是都能说得清楚,这就是差异。”


张鹏和智谱AI试图从本源上来理解OpenAI背后的逻辑,来对齐GPT-4的水平。


基于此,1月16日,在2024智谱AI技术开放日Zhipu DevDay上,张鹏发布了新一代基座大模型GLM-4。


据介绍,GLM-4在基础能力上实现大幅升级,性能相比上一代全面提升 60%,逼近 GPT-4。其支持更长上下文、更强的多模态,包括更高精度的文生图性能和更丰富语义的图片理解。


同时,GLM-4-All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力以完成复杂任务。GLMs个性化智能体定制能力上线,任何用户用简单的提示词指令就能创建属于自己的 GLM 智能体。


毋庸置疑,当下的智谱AI,正处于浪潮之巅。去年6月,在硅谷科技媒体The Information的盘点中,智谱AI被视为最有可能成为“中国OpenAI”的5家企业之一。


在2023年智谱AI的全员大会上,张鹏很感慨,“生在这个时代很幸运,一辈子几十年的时间,可能就赶上这么一波技术的潮流。”


2019年成立的智谱AI是国内最早研发大模型的企业之一,由清华大学知识工程实验室(KEG)技术成果转化而来。智谱AI的去年完成了累计25亿元的融资,投资方包括美团、蚂蚁、阿里、红杉和高瓴等。   


在经历了追赶ChatGPT的一年后,张鹏认为,2024年中国大模型的主题词是顶天立地。“我们希望朝国际上最先进的水平去看齐,在技术上和应用上去尝试顶一下天;而立地这个事情就是把公司的商业化做好。”张鹏告诉《深网》。


以下是腾讯新闻《深网》专访智谱AI CEO张鹏实录整理,在不改变原意的情况下有所删减:

       

 

 

“与GPT 4水平对齐”

         

 

《深网》:最近大半年时间,GPT和国内大模型产品的发展速度是不是达到预期?


张鹏:GPT的发展速度还是挺快的,几个月时间做到2亿用户。不管是 GPT4, 11月份发GPT store,还有最近疯传的 GPT5,不管真的假的, 可以看到 OpenAI也在快速的往前更新和迭代,确实没有让大家失望。


国内的发展速度也挺快的。站在国外的角度看国内的大模型,能明显的感觉到国外对于国内产品的发展速度挺认可。


对比国外一些比较知名的权威人士和团队写的文章,从整个时间演化顺序来看,出现在文章里的中国厂商产品是在增加的,国外的同行很关注我们在做的这些事情。


《深网》:智谱AI最新的技术突破是什么?


张鹏:我们带来了新一代的模型GLM-4,大脑本身的聪明程度提升了,原来是一个高中生,现在可能到了大学生水平,大脑的水平提升的同时,我们也让它长出了手脚、眼睛、耳朵,具备了跟现实世界和数字世界进行交互的一些基本能力。


《深网》:目前智谱AI的水平,可以对标GPT的哪个阶段?


张鹏:我们一以贯之的是瞄向AGI路径中的一个阶段,每3-6个月更新一次做一次升级,每一代都会有一些不同,比如说上一代我们解决的是模型能力矩阵的对标,然后这一次是模型的能力上跟GPT4做到基本对齐,GLM-4 的基本能力已经比肩 GPT-4。


《深网》:对标GPT 4,最重要的是提升你们的多模态理解能力?


张鹏:多模态能力是其中非常重要的一个组成部分。我们聊多模态的时候,首先映入脑海的文生图、图生文,这个事情原生的驱动力是要解决跨模态的理解和生成,其本质是什么?在AGI的版图里,它代表的是什么意义?


当时我看到GPT4的报告触动很大,大家都在做文到图生成的时候,GPT4做了一个图到文的理解、推理和生成,它为什么要做这件事情?


我个人理解,人的视觉、听觉、触觉等,都是原始的基础数据和信息的感知能力,但语言是人造的,用抽象符号来描述这些原始信号的东西。本质上,语言是一种更高阶的信号。


人之所以为人,是因为语言,这件事情诞生是一个非常重要的节点。两个节点,一个是工具创造和使用工具,一个是语言,这是人工智能发展两个大的标志。  

 

从抽象数据生成具象化内容(文生图),比从具象信息到抽象信息的转换(图到文),要更容易一些。为什么?因为具象的信号收集更容易,它包含的信息量的密度小;但从低维信号里面去抽取高维信号是难的,要排除掉噪音,得到价值最大的部分。


本质上,由低级信号到高级信号,更能体现认知的能力。


GPT4实现了图像的理解和推理,我们认为这是非常重要的一个方向。整个2023年,我们在多模态方面花了很大的精力去做图生文这件事情。而Gemini的发布也验证了这个事情,谷歌也认为这件事情很重要,谷歌甚至走的更远,它把图像、视频、声音、全部统一到一个模型里去学习。


《深网》:代码增强能力也是目前大模型之间的竞争点?


张鹏:代码增强是一个比较实际的问题,训练语言模型的认知能力,类似于再造一个大脑,需要更强的思考能力、理解能力、推理能力和认知能力。


大脑如果不和外界接触和交互的话,永远是个缸中大脑,能力再强也干涉不了现实世界。代码增强赋予了大模型交互能力,也包括搜索增强能力,让大模型长出手和脚,眼睛和耳朵,更自主的去获取信息,更方便的去跟外界的这些系统进行交互。代码增强让大模型产生更大的价值。


 

“2024关键词:顶天立地”

         

 

《深网》:2024年,你认为国内大模型的主题和趋势是什么?


张鹏:顶天立地。顶天也可以用创新来表示,顶天就是去突破,技术上创新,应用上创新,都是顶天的事儿,往上突破的事儿。


2023年国内企业在技术上都是一个追赶的态势,智谱AI稍微靠前一点,2024年我们希望朝国际上最先进的水平去看齐,在技术上也尝试去顶一下天,GLM-4 就是我们这方面的最新尝试;还有一个就是应用,两条思路——原来的钉子砸一遍和找到新的钉子。把原来钉子砸一遍,这个事情大家都能想到,就是用大模型改造现有的工作流程;找到新的钉子,意思就是尝试一些突破性的创新。


立地这个事,不管技术的突破也好,应用的创新也好,回归到公司本身还是要把商业上的业务做踏实了,转化成公司的收入和收益,创造客户价值。


《深网》:国内有投资人认为,OpenAI的技术本身没那么难?


张鹏:这种表述可能不严谨,更严谨的表述是从技术原理上来说,OpenAI确实没有太多神秘的地方,而且有很多原创的技术也不是OpenAI发明的,它把这些技术发扬光大或者做到极致。但从技术工程和落地上来看,这就是一件了不起的事情。


ChatGPT从技术原理、工程化、应用到市场,是一个非常紧密的闭环,很难单独割裂来看。


《深网》:从技术上看,国内的大模型能赶超 GPT吗?


张鹏:现在还是一个追赶的态势,我们也一直在缩小之间的差距,毕竟后发有后发的优势,也省去了前面的一些探索,把精力集中在相对正确的路径上。但说实话,光靠这样的东西不太可能实现超越的,因为大家的路径是一样的,因此最后你可能最多做到和tGPT一样。   


这正是智谱选择自研 GLM 预训练框架的原因。我们尝试用局部的或者整个链条中的一些创新突破,来提升我们追赶的速度。


OpenAI起步比较早,发展的速度体现为曲线的斜率,国产大模型起步比它晚,只有用一点一点的积累去调整发展速度,调整曲线的斜率,才有可能预期会越来越近,会有一个交叉的点。


因此,算法、系统工程、数据、应用到落地等等这一个链条上,所有的创新累加起来,才有可能去超越它。


《深网》:未来各巨头都会有自己的大模型,产品会不会趋同,差异化在哪?


张鹏:我们公司在做全局的能力,这些能力对对于AGI的整个的目标达成,是必不可少的部分,有些会偏向应用去做,有些是偏向行业去做,慢慢的会有一些差异。


 

“从0到1”的标签

         

 

《深网》:OpenAI前一阵的人事风波对GPT的技术演进影响大吗?


张鹏:目前看起来好像没有太大的影响。


《深网》:在您看来,国内大模型目前和硅谷的差距主要在什么维度?


张鹏:差距从各个方面都能列举一些出来,我觉得本质还是大家对这个事情的认知。以OpenAI和谷歌这些世界顶尖级团队为代表,他们对大模型的认知一定是非常高的。


《深网》:为什么存在这种差异?


张鹏:去年参加一些论坛和圆桌,大家讨论认为,中国人不太擅长0到1,但很擅长1到100。我在思考为什么?大家去总结过去的一些事情,以移动互联网和互联网举例,中国都不是技术的起源,但从应用的角度来说,中国的公司跑的都很猛,超过了美国公司。


当然这些过去不足以去贴一个标签,限制自己去想0到1的事情,我一直在想,我们应该能够把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步。


《深网》:你认为大模型的本质是什么?


张鹏:我觉得大模型是我们在探索AGI的过程当中,尝试去理解或者是模拟接近人脑的认知能力的一种技术手段,它是基于人工智能的行为学方法。


《深网》:如何看待AGI下半场的竞争格局?


张鹏:严格来讲不叫AGI的下半场,应该是生成式AI的第二场。后面还有几场,我不知道。


AGI也不等同于生成式AI。大模型可能是我们在追寻AGI过程当中一个非常有效的技术手段,但可能并不代表AGI。AGI很难,还有很多问题需要去解决。


《深网》:对国内的通用大模型来说,现在是个什么样的节点?


张鹏:我想经过 2023 年的充分竞争,现在我们逐渐可以说进入一个决战时刻了。   

   

“闭源让企业更容易获取收益”

         

 

《深网》:开源和闭源,目前来看会导向两条不同的技术和产业路径?


张鹏:开源和闭源确实是两个事情。开源、闭源和商用之间是什么样的关系?


在我看来,开源是整个产业大的生态里必不可少的一环,是技术的多样性和创新的活力和动力。开源会有一些允许的,会被拿去做商业,但真正大规模的商用最终会落到闭源。商业价值上,尤其对中大型客户而言,选择并不在于这个技术本身获得的成本,还包括了技术的稳定性,支持程度,一致性,服务和安全一系列的问题。


从商业应用来讲,闭源版本可能会让企业获得更好收益,来维持比较好的商业化服务,所以开源和闭源目的不一样,本质也不一样。


《深网》:能否分享下智谱商业化落地进展?


张鹏:从整个商业化落地的路径上来说,我们会有自己的一些选择,这个选择是来源于我们团队的基因,以及我们对当前市场的一个综合判断。我们很早就确定我们要做TO B,我们也罢商业化落地的主要精力放在这块;TO C我们也会去做,但我们的目的也比较明确,把闭环做起来,给未来也留下一个可能性, TO C应用这一块可能未来也是一个要爆发的点。


TO B这块像开放平台,实际上是我们对于TO B服务落地的一个具象化的结果。


《深网》:人工智能此前没有爆发,是不是缺一款划时代的产品?


张鹏:人工智能的爆发不是一个产品能决定的事情。就像上一代AI的技术,能够说它不够爆发吗?每天刷脸,支付,语音都已经到这种程度了,算不算爆发,但大家为什么认为那个不算爆发?可能潜意识里觉得它不是我们想象中的人工智能,而更像是工具。


《深网》:国产手机也在开发端侧大模型,英特尔和联想等开始发力AIPC,这些硬件领域的AI革命会不会带来相关产业的重塑?


张鹏:我觉得大概率会,大家希望在手机上用到新东西,需求是存在的。第一怎么把这个技术的路径走通;第二把成本降下来;第三个把使用的体感提升上去,某种程度上讲,这三件事是同步要进行的。

 




小满工作室 | 腾讯新闻出品

本文版权归“腾讯新闻”所有,如需转载请在文后留言,经允许后方可转载。

第1133期

运营排版:豆子

点击“阅读原文”,查看腾讯新闻客户端相关独家文章  你“在看”我吗?
继续滑动看下一个
深网腾讯新闻
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存